当时第一遍看的时候,不知道为什么,心里的二次元之火熊熊燃烧。这个作者,是一个非常喜欢做AI视频,而且是动漫风格AI视频的创作者,叫Naegiko。虽然片子只有10万播放,但是,很多大号都直接转载他的,总播放量破百万肯定是有的了。在评论区的下面,哥们也在给所有喜欢做动漫风格的人,安利Vidu。
其实很多人上周也在催我写Vidu1.5版本的更新,但是事情实在太多,本来上周五打算发,结果出了点小毛病一波直接干到医院,一拖也就拖到了今天。其实坦率的讲,现在的视频大模型,在写实上效果都能卷的还不错,但是在一些风格化的动漫视频上,经常会出现一些变形和识别错误。甚至有的还会把你给的动漫的参考图,直接给你在过程中变成写实或者那种3D风格的,稳定性很差。而对于Vidu来说,在我测试的这几个月里,Vidu的2D风格,就是现在最强的,也是他们之前,最大的特色。但是Vidu1.5的这波更新,如果只是模型质量提高了一些,语义理解强了一些,其实坦率的讲也没什么好写的了,大家对AI视频模型的更新已经有点趋近于去年语言大模型的感觉了,已经有点免疫了。需要一些更直观的功能,才能让大家感觉到,很酷的感觉。而Vidu1.5版本这次的更新,刚好就有一个我觉得划时代的新功能,叫:我先放两个视频,让大家先直观感受一下,这个东西是个啥。衣服是梅西的10号球服,转过身来,是宋小宝,然后振臂高呼。来自朋友@卡尔之前做的一个case,马斯克和甄嬛漫步在故宫中,还动态非常大的给屏幕面前比了个大拇指。现在应该能模糊的感觉到了一些,来自多主体一致性的强大了吧?
用最简单的话解释,就是你可以传至多3张图。来实现任意人物、任意物品、任意场景的一致性。比如梅西那个case,就是上传了梅西的球服+宋小宝的脸,然后用一段Prompt:梅西背对着镜头,慢慢转过头是图中的男子在冲着镜头笑。直接生成的。而马斯克和甄嬛,则是上传了一张马斯克的、一张甄嬛的、一张故宫的图。然后用一段Promtp:一个穿着黑色衣服裤子的男人和一个穿着黄色中国古代服装的女人走在宫殿外的路上。这就是Vidu1.5这波更新、最酷的功能,多主体一致性。在我看来,可能是现在很多人意识不到,但是在AI视频领域,可能划时代的一个技术。我们常说AI视频想进入专业影视领域,除了最终质量之外,一直以来都有三个一致性要解决:如果连在单个片段里,这三个一致性都没法解决的话,那别提电影这种最高殿堂的产物了,连一些剧集都够呛。
而过往,风格一致性已经解决的还行了,角色一致性Vidu在今年7月份的更新中其实上了一版,而场景一致性,一直以来几乎没有任何解决方案。
这一波,Vidu1.5直接用最简单开箱即用的方式。
你终于可以不用担心,你的广告、你的片子中,人物角色形象不一致的问题了,也不用去用那个蹩脚的Midjourney出图再图生视频的流程了,而是直接找到你想要的,扔进去,加一段prompt,完事。
进去登录以后,就能看到这个参考生视频了,打开那个多主体一致性功能,你就可以传最多三张图片作为参考。比如,我们传一个奶龙和一个鸡哥上去,让他两,来一波开心的跳跃。
Vidu1.5的速度也非常的快,我选的720P,不到1分钟,就跑出来了,速度上跟Runway是一个级别的了。鸡哥和奶龙,在主体上,几乎是跟我传上去的图片,一摸一样,完美的实现了一致性。
你可以用这三个图片格子,来自由组合,来实现任意人物、任意物品、任意场景的一致性。还可以是一个人物的三视图,直接实现3D人物级别的一致性,3张图,就可以直接跳过建模阶段直接出成片。
我随手拍了我非常喜欢的Dimoo,之前的熊猫款的三视图。然后扔到Vidu里。然后不到1分钟,一段Dimoo在森林里的视频就做完了。
甚至,Vidu1.5的多主体一致性不仅对角色是一场革命,对电商广告也是。
这个多主体一致性,绝对是我最近见过,可能是AI视频领域,最有趣也是最有用的功能之一。而Vidu1.5这个多主体一致性,其实也是组合,你可以不断的组合。人物背面+人物正面、人物三视图、物体+场景、人物+场景、人物+物体等等等等。甚至你如果觉得三张图片不够用,还可以上传的时候,将多个主体拼接到一张图中上传,展开无限可能。新的技术,总是能进一步推升我们的边界,让我们的想象力,终于可以更为宏远的延伸。Vidu、可灵、海螺、即梦、pixverse,每一个都在市场上,杀出了自己的一条血路。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克
>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com